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摘要 : 
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【 目的 】 更 准确 便捷 地 完成 术语 词汇 的 自动 抽取 。[ 方法 】 利 用 CBOW 模型 计算 构成 术语 的 各 个 词 部 件 


的 向 量 空间 模型 。 通过 词 向 量 之 间 的 余弦 相似 度 衡 量 术语 词汇 内 部 各 个 词 部 件 的 关联 度 。 利 用 PageRank 算法 计 


算 候选 词汇 的 领域 代表 性 并 排序 ,通过 阔 值 的 设 定 , 抽取 出 更 为 具有 领域 代表 性 的 术语 词汇 。[ 结果 】 在 以 自然 
语言 处 理 领域 内 的 论文 摘要 作为 数据 集 的 实验 中 取得 较 高 的 准确 率 和 召回 率 。[ 局 限 】 测试 的 数据 训练 集 偏 小 ， 
而 数据 集 的 训练 效果 直接 影响 实验 的 效果 。[ 结论 】 实验 结果 表明 利用 CBOW 模型 完成 术语 的 抽取 工作 是 一 个 


较为 合理 、 可 行 的 方法 。 
关键 词 : 术语 抽取 ”神经 网 络 CBOW 模型 
分 类 号 : TP18 G35 


1 3 引 


术语 被 定义 为 “特定 专业 领域 中 一 般 概念 的 词语 
指称 ”。 许 多 专业 领域 的 术语 , 会 伴随 着 学 科 的 发 展 而 
产生 动态 的 更 新 。 新 技术 、 新 信息 、 新 知识 的 产生 会 
推动 潜在 的 新 术语 词汇 的 出 现 。 新 术语 被 不 停 地 引入 
到 各 个 不 同 的 学 科 领 域 中 ,而 旧 术 语 则 有 可 能 逐渐 消 
亡 亦 或 是 被 赋予 新 的 含义 。 术 语 和 术语 学 这 种 动态 变 
化 的 本 质 更 加 推动 了 术语 处 理 技术 的 不 断 发 展 。 

在 术语 的 自动 抽取 中 使 用 了 很 多 自然 语言 处 理 技 
术 , 如 : 统计 分 析 、 词 性 标注 、 语 义 分 析 等 。 但 同时 , 自 
然 语言 处 理应 用 中 也 需要 与 术语 相关 的 信息 来 协助 处 
理 专 业 文档 。 比 如 : 机 需 翻 译 、 自 然 语 言 生 成 、 词 典 
编 每、 句法 分 析 和 自动 文摘 等 。 基 于 此 ,实现 高 效 、 
快速 的 术语 自动 抽取 对 于 自然 语言 处 理 技术 的 发 展 有 
重要 的 意义 。 为 了 提高 当前 术语 抽取 的 准确 度 , 本 文 


了 中 


提出 一 种 基于 词 部 件 扩展 算法 和 神经 网 络 算法 相 结合 
的 术语 抽取 方法 ， 利 用 神经 网 络 的 词 向 量 计 算 方 法 构 
造 词 扩展 部 件 的 向 量 空间 模型 ， 利 用 余弦 相似 度 判断 
各 个 词 扩展 部 件 间 的 内 部 关联 强度 , 实现 对 术语 候选 
词 集 的 初步 过 滤 , 最 后 结合 PageRank 算法 , 统计 候选 
集中 各 个 词汇 的 领域 代表 性 , 借 此 完成 对 领域 术语 词 
汇 的 精确 抽取 。 


2 ”相关 研究 工作 


术语 的 构成 一 般 分 为 单词 型 术语 和 多 词 型 术语 。 
在 汉 志 伟 主 持 建 设 的 “数据 处 理 术语 数据 库 ?"GLOT-C 
中 , 词组 型 术语 就 占 了 75.17%。 吴 云 芳 等 由 研究 发 现 
词组 型 术语 的 比例 是 74%， 而 单词 型 术语 仅 为 26%。 
张 榕 外 则 分 析 了 一 个 包含 8 150 条 术语 的 数据 库 ， 并 通 
过 分 词 工 具 统 计 了 这 些 术语 的 词 长 分 布 特征 ,其 中 包 
含 2、3、4 个 单词 的 术语 最 多 , 一 共 占 总 数 的 71.723%， 


ee 
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而 长 度 大 于 6 的 术语 仅 为 0.572%。 李 茎 钻 对 56 609 条 
网 络 技术 术语 进行 统计 分 析 ， 发 现 单词 型 术语 的 比例 
为 7.7938%， 而 包含 2 到 6 个 单词 不 等 的 词组 型 术语 占 
据 的 比例 为 89.7101%。 因 此 本 文 将 主要 的 研究 对 象 设 
定 为 多 词 型 术语 。 

单 语 的 术语 抽取 方法 主要 分 为 三 类 : 

(1) 基于 语言 规则 的 方法 ， 即 通过 专家 编写 的 术 
语词 典 和 规则 模板 完成 对 术语 的 抽取 广 9。 该 方法 虽 
然 精度 较 高 ,但 编写 规则 依赖 于 语言 环境 和 领域 主 
题 ， 难 以 实现 移植 。 

(2) 基于 统计 特征 的 方法 ， 即 基于 术语 内 部 词 
之 间 黏 着 度 较 高 的 假设 ,利用 统计 特征 实现 术语 抽 
取 。 目 前 在 术语 抽取 中 被 成 功 使 用 的 统计 特征 包括 
卡 方 检验 、 对 数 似 然 检 验 、 互 信息 上 和 C-Value/NC- 
Value5 等 。 但 是 仅仅 依靠 术语 内 部 黏着 度 效 果 却 并 
不 理想 , 为 了 能 够 大 大 提高 准确 率 ， 加 斯 特 森 和 卡 
茨 在 1995 年 利用 一 个 词性 过 滤器 过 滤 候 选 短 语 ， 这 
个 过 滤器 只 人 允许 可 能 的 “短语 ”的 模式 通过 器。 此 外 基 
于 统计 特征 的 方法 还 存在 一 些 缺 点 ， 例 如 互信 息 算 
法 很 难 排除 语 料 中 超 低 频 词 和 超 高 频 词 的 干扰 ， 用 
来 判断 字 词 间 的 关联 强度 也 存在 缺陷 , 并且 难以 扩 
展 到 多 词 术语 中 。 

(3) 基于 机 器 学 习 的 方法 ， 即 将 术语 抽取 任务 
转化 为 分 类 问题 或 标注 问题 , 借助 决策 树 (DT)、 支 
持 向 量 机 (SVM)00、 隐 Markov 模型 (EMM)、 条 件 
随机 场 (CRF) 模 型 器 等 ,但 此 类 方法 一 般 需 要 借助 
大 量 的 人 工 标注 语 料 。 例 如 ， 章 成 志 呈 提出 一 种 多 
层 术 语 度 的 一 体 化 术语 抽取 方法 , 并 采用 句子 术语 
度 的 概念 , 将 术语 所 在 句子 的 所 有 词语 均 作 为 训练 
特征 ,使 用 条 件 随 机 场 识别 术语 , 但 该 方法 依赖 大 
量 训练 数据 。Lee 等 中 提出 一 种 不 依赖 词典 、 以 规 
则 作为 特征 , 通过 SVM 分 类 抽取 术语 的 方法 ,但 该 
方法 的 召回 率 偏 低 。 

上 述 研究 充分 地 利用 了 语法 规则 、 统 计 方 法 两 者 
的 优点 ,大 大 提高 了 术语 抽取 的 准确 率 。 但 是 传统 的 
监督 学 习 算 法 ,如 利用 CRF 进行 术语 抽取 , 需要 大 量 
的 人 工 标 注 以 提高 抽取 的 准确 性 , 而 使 用 SVM 等 无 
监督 的 抽取 算法 ， 又 会 带 来 超 低 频 词 的 平滑 , 算法 扩 
展 性 差 等 问题 。 基 于 此 , 本 文采 用 基于 CBOW 模型 
(Continuous Bag-of Words Model) 的 神经 网 络 算法 有 效 
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解决 这 些 问题 。 
3 术语 抽取 研究 框架 与 关键 技术 描述 
3.1 ”算法 设计 和 实现 

图 1 为 术语 抽取 实验 的 算法 框架 。 算 法 输入 为 待 
抽取 的 文本 文献 , 算法 主要 分 为 4 个 子 函数 层次 , 分 
别 为 : 文献 信息 预 处 理 层 、 语 言 模型 抽取 层 、 语 义 模 
型 抽取 层 和 领域 代表 性 挖掘 层 。 

输入 待 抽 取 的 文献 


文献 信息 预 处 理 


根据 语言 模型 
抽取 候选 术语 词汇 


训练  『 比较 各 个 词语 之 间 的 语义 联系 a 
语 料 集 / 【进一步 得 到 更 准确 的 术语 词汇 


通过 文本 内 的 共 现 关系 
得 到 领域 内 更 具 代表 性 的 术语 词汇 


领域 术语 词汇 
图 1 术语 抽取 算法 框架 
(1) 文献 信息 的 预 处 理 层 
对 于 待 抽 取 术 语 的 文献 资料 首先 对 其 进行 中 文 
分 词 和 词性 标注 处 理 , 本 文采 用 中 国 科 学 院 计算 技术 
研究 所 开发 的 ICTCLAS 分 词 软件 5 对 采集 的 汉语 语 


料 完 成 分 词 和 词性 标注 工作 。 由 于 术语 是 一 种 能 够 表 
述 具体 概念 的 语言 单元 ,隶属 于 实 词 的 范畴 。 词 性 构 
成 一 般 为 名 词 、 动 词 和 形容 词 。 针 对 术语 词汇 的 这 一 
寺 点 ,利用 分 词 软件 抽取 出 待 抽取 术语 语 料 中 的 所 有 
词性 为 名 词 、 动 词 和 形容 词 的 词汇 。 

(2) 语言 模型 抽取 层 

算法 1 主要 是 利用 预 处 理 过 的 已 经 分 过 词 、 进 行 
过 词性 标注 的 语 料 , 利用 语言 模型 提取 出 其 中 可 能 的 
候选 术语 语 料 集 。 为 术语 的 抽取 工作 进行 第 一 次 初步 
的 术语 抽取 和 过 滤 。 在 实际 操作 过 程 中 ， 人 为 添加 了 
停 用 词 表 , 例如 “是 ”“ 有 ”在 文本 语 料 中 经 常 以 动词 的 
形式 出 现 , 但 很 少 含 有 实际 意义 ,也 几乎 不 在 术语 词 
汇 中 出 现 , 所 以 在 抽取 时 利用 词 表 将 其 去 除 , 可 以 很 
好 地 提高 抽取 的 效果 。 


(3) 语义 模型 抽取 层 

算法 2 主要 是 对 初步 筛选 的 候选 术语 进行 进一步 
过 滤 ， 利 用 神经 网 络 算法 计算 出 每 个 词 分 量 的 语义 向 
量 , 通过 比较 语义 向 量 间 的 余弦 相似 度 判 断 术 语 候选 
词 中 各 个 词 扩展 部 件 间 的 语义 结合 强度 ， 以 此 得 到 更 
为 准确 的 候选 术语 词汇 结果 。 

看 向 量 A=(AlA，…Ai…An) ，B=(B,B2，…Bi， 
…;Bn) ， 则 向 量 间 余 弦 相 似 度 的 计算 如 下 所 示 : 


2 xBi) 


-一 0 
DA? x > B? 
| i=] 


(4) 领域 代表 性 挖掘 层 

算法 3 主要 是 为 了 评估 得 到 的 术语 所 具有 的 领域 
代表 性 , 为 此 本 文 借鉴 PageRank 算 法 计算 各 个 词 部 件 
在 领域 中 的 重要 程度 ,并 通过 加 和 排序 得 到 候选 术语 
词 集 中 最 具有 领域 代表 特征 的 术语 词汇 ， 从 而 使 术语 


cos0= 


的 抽取 工作 达到 更 好 的 效果 。 
3.2 ”关键 技术 描述 

(1) 词 部 件 扩展 的 使 用 原理 

根据 自然 语言 处 理 领 域内 术语 的 构成 特点 , 将 人 研 
究 重点 设置 为 多 词 型 术语 。 假 设 某 一 特定 领域 , 设 T 
为 该 领域 中 一 个 多 词 型 术语 , 构成 它 的 词 或 者 词 级 设 
为 C, 其 构成 的 术语 集合 为 SETt={TIT=Ci… C1,C,， 
Cm+1…Cn}, 集合 SETr 中 的 元 素 个 数 为 n(n>1), 构成 
术语 词汇 的 每 个 词 或 者 词缀 称 之 为 词 扩 展 部 件 ， 由 于 
大 部 分 多 词 术 语 由 两 到 三 个 词 或 者 词 级 组 成 ,所 以 将 
人 研究 的 词 部 件 的 个 数 上 限 设 置 为 3, 即 4>n>1。 

(2) 术语 语言 模型 运用 原理 

四 术语 是 一 种 能 够 具体 表述 领域 特征 概念 的 语言 单 
元 ,隶属 于 实 词 的 范畴 。 所 以 词性 构成 一 般 为 名 词 、 动 词 
和 形容 词 。 

@ 根 据 周 浪 上 的 统计 分 析 ,， 在 两 个 词 和 三 个 词 构成 的 
术语 中 Top5 的 词法 模式 如 表 1 所 示 , 其 中 人 N 代表 名 词 , V 代 
表 动 词 ,A 代表 形容 词 。 


表 1 两 词 和 三 词 术语 Top5 词法 模式 表 


两 词 术语 三 词 术语 
序号 词性 序列 示例 序号 词性 序列 示例 
1 N+N “自然 /hn 语言/n” 1 N+N+N “句法 /n 标注 /n 语料库 /n” 
2 V+N “测度 应 空间 /n” 2 N+V+N “电路 /n 交换 /Vv 网络 /n” 
3 N+V “机 器 和 丘 学 习 /v” 3 V+V+N “并 行 /v 虚拟 放 机 /n” 
4 V+iV “编译 人 优化 /v” 4 N+N+V “自然 吴语 言 丘 处 理 /v” 
5 A+N “单调 /a 函数 /n” 5 V+N+N “ 插 v 值 hn 算法 /mY 


根据 术语 词汇 中 的 词性 构成 特点 , 将 本 文 重点 研 
究 的 语言 模型 设 定 为 表 1 中 的 10 种 ,在 实际 术语 词 扩 
展 部 件 的 选取 过 程 中 ,主要 采用 ICTCLAS 分 词 软件 
对 采集 的 汉语 语 料 完 成 分 词 和 词性 标注 工作 。 利 用 术 
语词 汇 的 语言 模型 对 候选 术语 完成 初步 提取 工作 。 

(3) 术语 词 扩展 部 件 的 向 量 构建 原理 

本 文中 单词 词 向 量 的 构建 主要 依据 神经 网 络 技 
术 , 采用 CBOW 模型 "为 词 扩展 部 件 构 建 词 向 量 空 
间 模 型 。 

该 模型 的 主要 思想 是 在 已 知 当 前 词 Wi 的 上 下 文 
Wiz,Wii,Win,Wtrz 的 前 提 下 预测 Wi。CBOW 模型 的 网 
络 结构 主要 包括 三 层 : 输入 层 投影 层 和 输出 层 ， 如 图 
2 所 示 。 


Vv(Context(wW)!) v(Context(w),) v(Context(w),.) 


Input Layer CJ Gl [= 
summation 二 、 一 
Projection Layer [ | Xw 
Output Layer > 访 - 
1 < \ 
后 六 
Ns ( 
CO O ® 3 
人 
oe 总 
a 


Sample (Context(w),w) 


| / 


OO 


图 2 CBOW 模型 网 络 结构 
中 输入 层 : 包含 Context(w) 中 2c 个 词 的 词 向 量 


Vv(Context(w)1), v(Context(w)»)... v(Context(w)2o) ER™", m 表 
示 词 向 量 的 长 度 。c 表示 在 词 w 的 前 后 各 取 c 个 词 。 


XIANDAI TUSHU QINGBAO JISHU 


11.01252v1 


| 


01 


GAN 


本 图 
和 = 


chinaXiv 


ChinaXiv 合 作 期 刊 


研究 文 


@) 投 影 层 : 将 2c 个 向 量 做 求 和 累加 ,如 下 所 示 : 


25 
Xw = >,v(Context(w)i)e R™ (2) 


isl 
图 输出 层 : 输出 层 对 应 一 棵 二 又 树 ， 以 语料库 中 出 现 的 
词 作为 叶子 节点 ， 以 各 词 在 语 料 中 出 现 的 次 数 作为 权 值 构 
造 出 霍 夫 曼 树 , 树 中 叶子 节点 共 N(N=|D|) 个 , 分 别 对 应 词典 
D 中 的 词 ， 非 叶子 节点 N-1 个 (在 图 2 中 用 深 色 标 注 的 节点 )。 
实验 主要 采用 基于 Hieratchical Softmax 的 CBOW 
模型 。 目标 也 数 通常 为 如 下 所 示 的 对 数 似 然 函数 : 


c= > logp(w | Context(w)) (G3) 


wec 


CI CUI 
特别 “关注 ”自然 


1 (人 )0 
语言 。” 人 处理 


图 3 w=“ 语言" 时， 相关 记号 示意 

如 图 3 中 的 霍 夫 曼 树 所 示 , 对 于 词典 中 的 任意 词 
w, 霍 夫 曼 树 中 必 存 有 一 条 从 根 节点 到 词 w 对 应 节点 
的 路 径 p*( 且 这 条 路 径 是 唯一 的 )， 路 径 p”* 上 存在 Y™*-1 
个 分 支 , 将 每 个 分 支 看 成 一 个 二 分 类 ,每 次 分 类 就 产 
生 一 个 概率 , 将 这 些 概 率 乘 起 来 就 是 所 需 的 
p(w|Context(w))。 使 用 随机 梯度 上 升 法 , 使 目标 函数 最 
大 化 。 这 个 神经 网 络 中 输出 层 的 霍 夫 曼 树 的 叶子 节点 
上 的 向 量 为 实验 中 使 用 的 词 向 量 。 

(4) 基于 语义 的 领域 术语 过 滤 原 理 

由 于 术语 不 同 于 一 般 的 普通 短语 ， 是 领域 内 具 
有 表征 概念 的 词语 。 所 以 术语 词汇 需要 在 所 代表 的 
领域 内 具有 代表 性 。 在 领域 文本 集中 , 候选 术语 之 
间 通 过 共同 的 上 下 文 建立 关联 关系 。 在 领域 语 料 中 
的 某 个 候选 术语 被 其 他 候选 术语 关联 越 多 , 说 明 它 
越 具 有 领域 代表 性 , 越 有 可 能 成 为 术语 。 为 了 能 够 
体现 出 术语 间 的 这 种 领域 代表 性 ,借鉴 PageRank 算 
法 M3, 求 出 组 成 术语 的 各 个 词 扩展 部 件 在 领域 内 的 
重要 程度 ,以 此 进行 排序 ,得 到 更 具有 领域 代表 性 
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的 术语 词汇 。 
术语 领域 代表 性 的 计算 方法 如 下 所 示 : 


Bea = Ca RC ERC) 
N Cm ca 


其 中 , N 表示 词 总 数 , PR(A) 表 示 词 A 的 PageRank 
值 , PR(T) 表 示 和 词 A 共 现 的 Ti; 的 PageRank 值 , C(T;) 
表示 词 T; 和 其 他 词 共 现 的 数量 , d 为 阻尼 系数 ,， 取 值 范 
为 :0<=d<=1。 在 实际 计算 中 每 个 词 的 初始 PageRank 
值 设 为 1 阻尼 系数 设 为 0.85。 


4 ”实证 研究 


4.1 测试 语 料 

实验 利用 网 络 候 虫 从 中 国 知 网 (CNKD 中 以 “自然 
语言 处 理 "为 检索 主题 , 抽取 1 500 篇 文献 的 中 文摘 要 
作为 训练 样本 ,并 对 其 中 的 500 篇 完成 人 工 标注 作为 
对 比 实验 样本 , 共 得 到 7 642 个 术语 词汇 (主要 为 两 词 
和 三 词 词汇 ), 平均 每 篇 摘要 约 15 个 术语 词汇 。 人 工 
标注 提取 的 术语 词汇 如 图 4 所 示 : 


(4) 


本 文 分 析 和 比较 了 几 种 典型 的 线性 插值 方法 ， 
着 重 研究 了 它们 所 引发 的 词性 聚 类 倾向 。 
1、 线 性 插值 方法 。 2、 插值 方法 


3、 词 性 聚 类 倾向 4、 词性 聚 类 


5、 聚 类 倾向 


图 4 人 工 标注 举例 
4.2 评价 指标 
准确 率 和 召回 率 是 广泛 用 于 信息 检索 和 统计 学 分 
类 领域 的 两 个 度量 值 ， 用 来 评价 结果 的 质量 。 笔 者 在 
术语 的 抽取 实验 中 也 采用 准确 率 、 召 回 率 和 Fl 值 作 
为 评价 参考 , 考量 方法 的 实际 使 用 效果 。 
提取 出 的 正确 的 信息 条 数 


准确 举 == 

全 而 音 - 提取 出 的 信息 条 数 G) 
二 提取 出 的 正确 的 信息 条 数 

如 这 一 

8 四 站- 样本 中 的 信息 条 数 (0 
_2x 准 确 率 x 召 回 率 

们 ”“ 淮 确 率直 本 率 (7) 


4.3 ”结果 与 分 析 

以 a、B 作 为 判断 词 扩展 部 件 间 的 关联 强度 和 所 具 
有 的 领域 关键 性 的 靖 值 设 定 。 经 过 多 次 的 反复 对 比 实 
验 , 得 到 的 结果 具体 如 表 2 所 示 。 从 表 2 中 可 以 直观 
地 发 现 当 a=0.6, B=0.015 时 , Fl 值 相对 最 高 ， 实 验 得 到 
比较 高 的 准确 率 和 召回 率 。 
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表 2 实验 结 
实验 号 Q B 准确 率 ”召回 率 “Fl 值 
1 0.5 0.0015 0.84 0.55 0.56 
2 0.6 0.0015 0.87 0.60 0.71 
3 0.7 0.0015 0.82 0.62 0.70 
4 0.6 0.0014 0.83 0.53 0.65 
5 0.6 0.0016 0.80 0.51 0.62 


为 了 能 够 更 加 清楚 地 展示 实验 效果 , 示例 将 文献 
摘要 “统计 自然 语言 处 理 中 , 一 个 很 复杂 的 问题 是 数 
据 稀 琉 问 题 。 主 要 有 两 种 平滑 方法 解决 : 回 退 法 和 线 
性 插值 法 。 本 文 分 析 和 比较 了 几 种 典型 的 线性 搬 值 方 
法 ,着 重 研究 了 它们 所 引发 的 词性 聚 类 倾向 。 在 此 基 
础 上 ,给 出 了 2 种 改进 的 平滑 方法 。 实 验 结果 表明 , 改 
进 的 方法 比 原来 的 方法 有 更 出 色 的 平滑 效果 。" 作 为 输 
入 文本 语 料 , 从 中 抽取 的 具体 术语 结果 如 下 : 

自然 语言 处 理 ”平滑 方法 ”线性 插值 方法 


语言 处 理 方法 解决 ”词性 聚 类 倾向 
复杂 问题 回 退 法 词性 聚 类 
稀 芯 问题 线性 插值 ” 聚 类 性 向 
方法 着 重 插值 法 平滑 效果 


可 以 发 现 , 由 于 像 “ 方 法 ”这 样 的 词汇 在 文本 语 料 
中 的 使 用 比较 频繁 而 且 和 其 他 词汇 都 比较 容易 搭配 ， 
导致 “方法 解决 "和 “方法 着 重 ” 在 抽取 过 程 中 很 难 被 过 
滤 。 在 今后 的 实验 方法 上 , 应 该 更 关注 这 样 的 词汇 , 希 
望 通过 其 他 的 方法 进一步 提高 术语 抽取 的 准确 度 和 召 
回 率 。 另外 由 于 设计 的 语言 模型 有 限 ， 所 以 例如 “数据 
稀 玻 问题 "这样 的 术语 词汇 未 被 抽取 出 来 。 随 着 语言 模 
型 的 扩展 添加 和 训练 语 料 的 扩展 ,实验 的 准确 率 和 召 
回 率 可 以 得 到 进一步 提升 。 

将 实验 方法 与 使 用 N-Gram 模型 建立 向 量 空间 模 
型 作为 Baseline 对 比 ， 准 确 率 有 明显 提高 。 使 用 神经 
网 络 模型 较 N-Gram 模型 主要 有 两 个 优势 : 

(1) 词语 之 间 的 相似 性 可 以 通过 词 向 量 体 现 。 举 
例 来 说 ， 如果 S1=“ 计 算 机 软件 ?和 S2=“ 电 脑 软件 ” 
在 语 料 中 分 别 出 现 1 000 次 和 1 次 , 按照 N-Gram 模型 ， 
P(S1) 一 定 大 于 P(S2), 但 是 “计算 机 ”和 “电脑 "是 同 义 
词 并 且 承 担 相 同 的 语法 作用 , 所 以 P(S1) 应 该 与 P(S2) 
相似 才 更 合理 。 在 基于 神经 网 络 的 算法 中 ，P(SH) 与 
P(S2) 是 相近 的 , 原因 在 于 : 在 神经 网 络 概率 语言 模型 
中 假定 “相似 ”的 词 对 应 的 词 向 量 也 是 相似 的 。 并 且 概 
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率 函 数 关于 词 向 量 是 光滑 的 ， 及 词 向 量 中 的 一 个 小 变 
化 对 概率 的 影响 也 只 是 一 个 小 变化 。 

(2) 基于 词 向 量 的 CBOW 模型 自 带 平滑 功能 ,由 
于 p(w| Context(w))E(0,1), 不 为 零 , 所 以 不 需要 额外 
处 理 。 此 外 与 传统 的 基于 CRF 模型 的 抽取 实验 比较 , 在 
只 进行 少量 的 语 料 标注 的 情况 下 , 基于 CBOW 模型 的 
抽取 实验 在 准确 率 和 召回 率 上 都 明显 优 于 CRF 模型 。 


S 结 语 


本 文 针对 术语 生成 方式 和 结构 特点 , 提出 一 种 基 
于 词 部 件 扩 展 和 神经 网 络 相 结合 的 术语 抽取 方法 。 与 
前 人 的 研究 相 比 , 采用 基于 神经 网 络 的 CBOW 模型 构 
建 基于 语义 的 词 部 件 向 量 空间 模型 ,很 好 地 解决 传统 
互信 息 方法 存在 的 词 平 滑 问题 ， 此 外 这 种 方法 还 可 以 
避免 大 量 的 人 工 标注 。 通 过 利用 向 量 间 的 余弦 相似 度 
衡量 各 个 词 扩 展 部 件 间 的 关联 强度 , 通过 关联 强度 的 
阔 值 设 定 完成 术语 词汇 的 抽取 ,可 以 有 效 地 提高 方法 
的 可 扩展 性 , 加 强 对 长 术语 的 抽取 效果 。 

综合 而 言 ， 基 于 神经 网 络 的 词 向 量 构建 ,便于 以 
大 量 的 领域 语料库 作为 支撑 ,利用 部 件 的 领域 聚合 性 
特征 完成 术语 抽取 , 并 且 可 以 得 到 较 高 的 术语 抽取 召 
回 率 和 准确 率 。 但 由 于 本 次 实验 采集 的 数据 量 的 限制 ， 
词 扩展 部 件 的 向 量 计算 和 词 领 域 代 表 性 计算 可 能 不 精 
确 ， 随 着 训练 数据 集 的 加 大 , 实验 得 到 的 准确 率 和 召 
回 率 可 以 进一步 提升 。 
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Automatic Extraction of Domain Terms Using Continuous 
Bag-of-Words Model 


Jiang Lin”” Wang Dongbo’ 
! (School of Information Management, Nanjing University, Nanjing 210023, China) 
“(Jiangsu Key Laboratory of Data Engineering and Knowledge Service, Nanjing 210023, China) 
(College of Information Science and Technology, Nanjing Agricultural University, Nanjing 210095, China) 


Abstract: [Objective] This study tries to extract domain terms more accurately and conveniently. [Methods] First, 
proposed a method using the CBOW model to build word vectors for each component of the terms. Then, applied the 
cosine similarity to calculate the internal correlation degree among each term’s individual components. To get more 
representative terms, we used the PageRank algorithm to rank the candidates. [Results] We obtained high recall and 
precision rates using the paper abstacts in the field of natural language processing as the training pool. [Limitations] 
The training pool was relatively small, which might influence the results. [Conclusions] This study shows that CBOW 
model is a more appropriate method to extract terminologies. 


Keywords: Terminology extraction Neural network Continuous Bag-of-Words Model 


NISO 发 布 新 版 期 刊 文章 标签 集 (JATS) 标 准 


2016 年 1 月 7 日 , 美国 国家 信息 标准 组 织 (NISO) 宣 布 正 式 发 布 JATS 的 更 新 版 本 : JATS 1.1(Journal Article Tag Suite 1.1), 
ANSINISO Z39.96-2015。 这 个 新 的 官方 版 本 是 ANSINISO Z39.96-2012( 也 称 为 JATS 1.0) 的 修订 版 本 , JATS 1.0 第 一 次 发 表 时 
间 是 在 2012 年 7 月 。JATS 的 目的 是 定义 一 系列 的 XML 元 素 和 属性 ,使 得 期 刊 文章 的 描述 能 以 一 种 通用 的 格式 进行 ,从 而 使 得 
期 刊 内 容 之 间 的 交换 成 为 可 能 。 这 一 标签 系列 是 想 要 保护 期 刊 知识 内 容 , 使 其 能 独立 于 最 初 交 付 的 形式 ， 并且 允 许 归档 以 便 
捉 到 现 有 资源 的 结构 和 语义 成 分 。 除 此 之 外 , JATS 标 准 还 包括 三 种 这 类 系列 的 实施 方案 ,被 称 作 标签 集 ， 这 种 标签 集 旨 
刊 文章 内 容 提供 保存 、 发 布 和 标记 作者 信息 的 模型 。 

“JATS 1.1 建 立 在 JATS 1.0 的 基础 之 上 , JATS 1.0 是 美国 国家 医学 图 书馆 (NLM)DTD 3.0 版 本 的 继承 者 , 广泛 应 用 于 工业 领 
域 .”* 美 国 国家 医学 图 书馆 NCBI 技 术 信 息 专家 和 NISO JATS 常 设 委员 会 联合 主席 Jeffrey Beck 指 出 ,“JATS 用 于 标记 全 球 出 版 商 
出 版 的 数 以 千 计 的 期 刊 , 并 且 JATS 还 在 发 展 之 中 。” 
直到 2015 年 2 月 ， 用 户 关于 JATS 1.0 的 所 有 评论 在 JATS 1.1 版 本 之 中 都 已 得 到 NISO JATS 常 设 委 员 会 的 解决 。 所 有 的 改 
动 也 能 够 与 JATS 1.0 版 本 相 兼 容 , 这 意味 着 任何 一 个 文件 ， 只 要 对 于 JATS 1.0 版 本 是 有 效 的 , 则 对 于 JATS 1.1 版 本 同样 是 有 
效 的 。”Mulberry 技 术 公 司 总 裁 和 NISO JATS 和 常设 委员 会 的 联合 主席 B. Tommie Usdin 认 为 , “JATS 的 采用 者 信任 JATS 1.1 中 的 
改进 功能 是 完全 稳定 的 , 并 且 将 如 预期 一 样 良 好 运行 。” 

“JATS 1.0 是 被 ANSI 批 准 的 , 并 且 在 2012 年 由 NISO 发 表 。 之 后 , 该 标准 的 更 新 是 由 ANSI 所 允 准 的 维护 程序 所 负责 管理 ， 
这 意味 着 在 全 新 的 标准 被 采用 之 前 , 所 有 的 评论 是 由 NISO JATS 常 设 委 员 会 修改 和 批准 的 2?”NISO 项 目的 副 主 任 Nettie Lagace 
评论 道 , “这 一 常设 委员 会 评价 所 有 评论 的 可 行 性 和 优先 顺序 , 并 且 做 出 适当 的 回复 , 这 些 回复 现在 可 以 通过 NISO JATS 的 网 
站 查找 到 ,所 以 任何 用 户 可 以 查找 得 到 关于 这 些 改变 的 所 有 历史 信息 。” 

NISO JATS 1.1 标准 有 两 种 可 利用 版 本 , 分 别 是 XML 文档 格式 和 PDF 格式 , 均 可 以 在 NISO 网 站 上 获取 : http://www. 
niso.org/workrooms/journalmarkup。 支 持 文档 和 DTD 格式 的 XML 模式 、RELAX NG 和 W3C XML 模式 格式 可 在 http://jats. 
nlm.nih.gov 中 查找 。 

(编译 自 : http://www.niso.org/news/pr/view?item key=15al11620077dd6d418deb3618f2c23dccf861b6) 
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